前面的章节在可忽略性和重合度假设下, 研究 . 我们可以把这个讨论延伸到实验组和对照组上: 如果 与 不同, 则平均因果效应在两个组上表现不同. 当然具体研究哪个取决于实际问题. 因为对称性, 本节只研究 .
实验组的平均因果效应可以写为 这里第一项可以从数据中直接看到, 但是 是虚构的. 我们需要给出如下假设:
在上述假设下,
这说明 非参数地等于
我们有
- 如果 是离散的, 定理的结果变为 因此我们可以得出这样的分层估计量 这里 是 类别在实验组中的比例.
- 而如果 是连续的, 我们要用对照单元拟合一个 的结果模型. 如果对照的潜在结果的拟合值为 , 则结果回归估计量为
如果我们对所有单元指定一个线性模型 则
如果我们跑一个 OLS 得到 , 则我们能用 来估计 .
因为公式里只取决于 , 所以我们要对控制组指定一个模型, 设为 我们有
如果我们只对对照单元跑 OLS 来得到 , 则估计量为 根据 OLS 的性质, 所以
依然在 上述假设 下, 我们有 这里 是实验处理的边界概率.
(2.1) 的左边为 右边为 所以 (2.1) 成立.
我们还有两个 IPW 估计量 (回顾 这里) 这里 是给定协变量后接受实验处理的概率的拟合值.
我们还有一个 的双向稳健估计量, 包含了倾向得分和结果模型: 这里 .
在 上述假设 下, 如果 或者 , 则 .
我们有分解 因此如果两个条件之一满足, 就有 .
基于 前面的总体版本, 我们可以为 构造一个双重稳健估计量 .
基于 , 我们能通过如下步骤得到 的双重稳健估计量:
- 得到倾向得分 的拟合值, 以及几率 的拟合值.
- 得到对照组下结果 的拟合值..
- 构造 , 这里
根据定义, 我们可以写出 或者
3 其他被估计量
从条件平均因果效应 开始, 我们可以讨论观察性实验中的统一的待估计量形式. 记 这里 是权重函数, . 标准化项 保证了平均值一致.
在可忽略性下, 这引导出结果回归估计量
此外, 我们可以说明 有如下的权重形式
从这里看出, 每一个单元都被联系了一个权重, 来自被估计量的定义和逆倾向得分带来的权重. 最后, 实验单元被乘以权重 , 而对照单元 . 下面是一些结果
| 群体 |
|
被估计量 |
权重 |
| 结合 |
|
|
, |
| 实验组 |
|
|
, |
| 对照组 |
|
|
, |
| 重合 |
|
|
, |
这里 是新的, 它相比 接近 的 IPW, 更加稳定. 如果 , 则 .
但是这里能看出它只对 的"摇摆不定的"人有最大的权重, 而对那些有极端倾向得分的人权重反而低. 它改变了初始的群体, 基于实际可能有错的倾向得分.